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社区 结构 是 社交 网 络 中 极为 重要 的 特性 之 一 ， 通 常 1 


基于 节点 综合 相似 度 的 多 标签 传播 社区 划分 算法 
者 梓 琳 ， 李 ” 雷 ， 施 化 吉 


(江苏 大 学 计算 机 科学 与 通信 工程 学 院 , 江苏 镇 江 212013) 


摘 要 : 为 了 解决 现 有 的 多 标签 传播 社区 划分 算法 采用 的 随机 顺序 策略 导致 形成 的 社区 划分 结果 不 稳定 和 社区 质量 不 

够 高 的 问题 ， 提 出 了 一 种 基于 节点 综合 相似 度 的 多 标签 传播 社区 划分 算法 MLPA-NCS。 以 节点 潜在 影响 力 的 降序 作为 
先 择 顺序 ， 解 决 社 区 结果 划分 不 稳定 问题 。 根 据 节点 的 主题 相似 度 和 链接 相关 度 计 算出 节点 综合 相似 度 ， 并 以 节 

点 综合 相似 度 降序 作为 更 新 节点 标签 时 对 邻近 节点 遍历 的 顺序 ， 提 高 所 划分 社区 的 质量 。 采 用 真实 数据 集 和 人 工 网 络 

数据 ， 对 多 个 算法 进行 对 比 实验 ， 结 果 表 明 算 法 有 效 可 行 ， 社 区 划分 结果 更 稳定 ， 社 区 质量 也 更 高 。 
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Multi-label propagation algorithm for community division 
based on node comprehensive similarity 


Hao Zilin, Li Lei, Shi Huaji 
(School of Computer Science & Communication Engineering Jiangsu University, Zhenjiang Jiangsu 212013, China) 


Abstract: To solve the problem that recent research about multi label propagation community division algorithm adopted the 
random sequence strategy to result in unstable result of community division and poor community quality, this paper proposed a 
Multi-label Propagation Algorithm Based on the Node Comprehensive Similarity (MLPA-NCS) for community division. This 
paper chose the descending order of node potential impact as the node selection order in order to solve the problem of the 
instability of the propagation. Node synthesis similarity could be calculated based on the theme of node similarity and link 
correlation, and it's descending order was used as the order of neighboring nodes traversal when updating the node label to 
improve the quality of the communities found. This paper used real data sets and artificial network data to compare the results 
of several algorithms. The results show that the algorithm is effective and feasible and able to make the result of community 
division more stable while the quality of community more effectively. 
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区 。 为 此 , 很 多 学 者 对 其 进行 改进 , Tet T ARBOR, 其 
中 GregoryBI 对 LPA 算法 进行 扩展 提出 基于 多 标签 传播 的 重 炙 
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E COPRA 算法 是 采用 随机 顺序 策略 选择 节点 更 新 标签 ， 
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Reghavan 等 人 中 首次 提出 基于 标签 传播 的 社区 划分 算法 LPA, 质量 不 够 高 。 Xie 等 人 四 则 提出 了 SLPA SEZEOK SIEHE d 
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前 已 有 研究 者 提出 基于 标签 传播 思想 对 社区 进行 划分 ， 用 使 得 传播 过 程 不 确定 ， 导 致 衬 


社区 划分 算法 COPRA， 人 允许 节点 同时 携带 多 个 社区 的 标签 和 
一 个 社区 内 关系 紧密 ， 社 区 之 间 关 系 稀疏 。 对 社区 结构 进行 划 ”相应 标签 的 隶属 度 , 在 重合 社区 划分 中 取得 了 较为 明显 的 效 骨 
助 于 节省 资源 ,例如 对 以 社区 为 单位 的 结构 进行 广告 投放 、 
推荐 和 与 情 控制 等 。 和 迭 代 过 程 中 也 随机 痪 历 邻 接 节点 的 标签 集 ， 随 机 顺序 策略 的 采 
区 划分 结果 不 稳定 且 生 成 社区 


上 区 的 


ai 法 设计 较为 简单 ， 使 得 该 算 。 划分 ， 节 点 在 每 次 标签 传播 中 只 能 够 传播 一 个 标签 ， 但 是 允许 
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和 应 用 于 大 型 网 络 社区 划分 中 ， 该 算法 仅 允 许 每 个 节点 。 节点 保留 其 所 有 感 兴趣 的 标签 ， 最 后 统计 标签 序列 中 出 现 的 各 


个 标签 ， 生 成 的 社区 为 非 重 闭 社 区 ， 然 而 现实 的 社交 网 。“ 标签 概率 。2016 年 ， 刘 世 超 等 人 四 提出 基于 标签 传播 概率 的 重 


络 中 常常 有 节点 同时 属于 不 同 的 社区 ， 形 成 较为 复杂 的 重 闭 社 ”县 社区 发 现 算法 LPPB， 综 合 利用 网 络 的 结构 特点 与 节点 属性 
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计算 标签 传播 的 概率 ;， 张 昌 理 等 人 [1 提出 基于 信息 粹 和 局 部 相 
关 性 的 多 标签 传播 重 半 社区 发 现 算法 ， 按 照 标签 炉 从 小 到 大 的 
顺序 进行 标签 更 新 ， 使 得 最 后 的 划分 结果 相对 稳定 一 些 。 文 献 
中 提出 了 基于 边界 节点 和 标签 传播 的 社区 划分 算法 ， 在 一 定 程 
度 上 降低 标签 传播 的 随机 性 。 
为 此 ， 本 文 以 COPRA 算法 框架 为 基础 对 其 改进 ， 提 出 基 
于 节点 综合 相似 度 的 多 标签 传播 社区 划分 算法 (Multi-label 
Propagation Algorithm Based on the Node Comprehensive 
Similarity, MLPA-NCS). 首先 以 用 户 节点 的 潜在 影响 力 降序 作 
为 节点 更 新 顺序 ， 以 解决 社区 结果 划分 不 稳定 问题 。 然 后 考虑 
节点 之 间 潜 藏 的 主题 相似 因素 和 链接 关系 ， 以 节点 主题 相似 度 
和 链接 相关 度 作 为 更 新 节点 标签 时 对 邻近 节点 遍历 的 顺序 ， 避 
免 因 随机 策略 更 新 标签 带 来 的 不 稳定 问题 ， 并 提高 生成 社区 的 


AK, RI 基于 节点 综合 相似 度 的 多 标签 


果 都 存在 着 一 定 程度 的 差异 。 实 际 上 网 络 中 影响 力 大 的 节点 通 
常 也 是 网 络 中 的 重要 节点 , PageRank 中 心性 认为 节点 的 重要 性 
取决 于 邻接 节点 的 度 及 其 重要 性 ， 若 节点 的 邻接 节点 在 网 络 中 
很 重要 ， 则 该 节点 成 为 重要 节点 的 可 能 性 也 越 大 。 因 此 可 以 用 
PageRank 中 心性 评估 节点 的 潜在 影响 力 , 按 其 降序 选择 节点 进 
行 标签 更 新 ， 可 以 在 一 定 程度 上 解决 由 于 随机 顺序 选择 节点 造 
成 的 划分 结果 不 稳定 问题 并 提高 划分 社区 的 质量 。 

COPRA 算法 在 更 新 节点 标签 时 只 是 随机 遍历 其 邻接 节点 
的 标签 对 其 影响 以 更 新 自己 的 标签 集 ， 且 忽略 了 不 同 邻 近 节 点 
(分 为 直接 邻接 节点 和 间接 邻接 节点 ， 其 含义 见 后 文 2.1.2 78 
解释 ) 对 其 影响 程度 的 差异 。 在 实际 社交 网 络 中 ， 尽 管 很 多 月 
站 之 间 没 有 直接 邻接 ， 但 是 他 们 拥有 相同 的 粉丝 ， 或 者 共同 关 
注 某 人 ,这 说 明 他 们 之 间 在 一 定 程度 上 也 有 间接 的 联系 或 影响 ， 


A 


质量 。 


1 ”相关 工作 与 问题 提出 


标签 传播 思想 为 每 个 节点 赋予 唯一 的 标签 ， 通 过 在 友 代 更 
新 中 接受 邻接 节点 标签 的 影响 来 改变 自身 的 标签 ， 直 至 标签 不 
再 改变 , 此 时 标签 相同 的 节点 划 为 同一 个 社区 。COPRA 算法 允 
许 同一 个 节点 在 迭代 更 新 中 携带 多 个 标签 ， 从 而 使 得 迭代 结束 
后 同一 节点 可 属于 多 个 社区 ， 得 到 重 且 社区 结构 。 

COPRA 算法 的 基本 思想 如 下 : 

a) 初始 化 节点 标签 。 初始 时 对 网 络 中 的 每 一 个 节点 v 各 自 
赋予 不 同 标签 c， 表 示 其 从 属 的 社区 ， 标 签 对 应 的 隶属 度 为 p， 


因此 在 更 新 节点 标签 时 ， 不 仅 要 考虑 直接 邻接 节点 而 且 还 要 考 
虑 间接 邻接 节点 的 影响 ， 为 此 本 文通 过 节点 链接 相关 度 来 度量 
节点 间 的 链接 关系 。 除 了 链接 关系 外 ， 社 交 网 络 中 的 用 户 之 间 
在 关注 的 主题 上 也 存在 一 定 的 相似 性 ， 通 过 用 户 的 主题 相似 性 
程度 进行 社区 划分 ， 所 得 到 的 社区 更 具有 相对 一 致 的 主题 ， 得 
到 的 社区 质量 更 高 。 


2 ”基于 节点 综合 相似 度 的 多 标签 传播 算法 MLPA- 
NCS 


MLPA-NCS 算法 首先 初始 化 节点 标签 , 然后 依据 节点 的 潜 
在 影响 力 降 序 选 取 节 点 ， 以 避免 由 于 随机 顺序 选取 节点 带 来 的 


b 都 为 1。 以 后 随 着 标签 传播 过 程 将 更 新 标签 节点 的 标签 集 , 每 
一 个 标签 有 对 应 的 隶属 度 。 

b) 标签 传播 过 程 。 网 络 中 的 任意 节点 v 在 标签 传播 过 程 中 
通过 接受 邻接 节点 u 的 影响 来 更 新 自己 的 标签 集 lable(v), 如 此 
行 迭 代 更 新 。 在 t HRP (1) 计算 节点 v 的 每 一 个 标 
签 c 的 隶属 度 。 


Es 


pi b, i(c,u) 
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并 对 所 有 标签 的 隶属 度 进行 标准 化 ， 使 隶属 度 之 和 为 1， 
如 式 2) 所 示 。 


Y b(ev-1 Q) 


celabelCv) 

c) 直 至 每 个 节点 的 标签 集 不 再 更 改 或 者 满足 迭代 次 数 后 停 
止 迭 代 ， 标 签 传播 过 程 停止 。 

d) 根据 节点 最 终 的 标签 集 确定 其 所 属 的 社区 。 

COPRA 算法 按照 随机 顺序 选择 网 络 中 节点 迭代 更 新 其 标 
签 ， 所 采用 的 同步 更 新 策略 会 导致 下 一 轮 欠 代 对 节点 标签 的 更 
新 依赖 于 上 一 轮 更 新 的 结果 ， 选 择 不 同 的 节点 更 新 标签 势必 会 
产生 不 同 的 划分 结果 。 多 次 实验 发 现 ， 社 区 划分 在 迭代 更 新 节 
点 标签 时 对 节点 的 选择 顺序 非常 敏感 ， 通 过 随机 顺序 选择 节点 
更 新 标签 会 造成 每 次 实验 的 收敛 结果 都 不 一 致 ， 且 社区 划分 结 


社区 结构 划分 不 稳定 现象 ， 接 着 在 计算 待 更 新 标签 节点 与 其 邻 
近 节 点 的 主题 相似 度 和 链接 相似 度 基础 上 得 出 节点 的 综合 相似 
度 ， 并 以 其 排序 作为 更 新 节点 标签 时 对 邻近 节点 遍历 的 顺序 ， 
保证 了 标签 隶属 度 的 稳定 性 ， 以 提高 生成 社区 的 质量 。 

定义 1 社交 网 络 G。 将 社交 网 络 抽 象 表示 为 一 个 有 向 图 
GUE), V j& G 中 用 户 节点 的 集合 ,是 G 中 有 向 边 的 集合 
其 中 V = {vv v} 
|V =n E - (Qu) | v.u EV}, (vu) 表示 由 节点 v 指向 节点 u 的 
有 向 边 。 

初始 化 节点 标签 时 对 G 中 的 每 一 个 用 户 节 点 "赋予 一 个 唯 
一 的 标签 c， 表 示 其 从 属 的 社区 。 初 始 时 指定 所 有 标签 的 隶属 
度 b(c,v) le 
2.4 标签 传播 过 程 
2.1.1 节点 选择 策略 

COPRA 算法 每 次 迭代 都 按 随机 顺序 选择 节点 更 新 标签 ， 
生成 的 社区 结构 不 稳定 。MLPA-NCS 算法 根据 节点 潜在 影响 力 
降序 选择 节点 更 新 标签 。 

定义 2 节点 潜在 影响 力 py 。 节 点 潜在 影响 力 pp 表示 节 
点 在 网 络 中 的 重要 程度 及 对 其 他 节点 的 影响 程度 。 PageRank 
中 心性 是 有 向 网 络 特征 向 量 中 心性 的 变种 ， 节 点 的 中 心性 评估 
方法 中 特征 向 量 中 心性 认为 节点 的 重要 性 取 诀 于 邻接 节点 的 度 
和 和 邻接 节点 的 重要 性 ， 因 此 可 用 PageRank 中 心性 评估 节点 的 
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潜在 影响 力 。G 中 任意 节点 v 的 潜在 影响 力 P 计算 如 式 G) 
所 示 。 


Pi(v;) 
PI(v,)- (1 Df I cs) 6) 

其 中 : No 表示 节点 v 的 所 有 的 父 邻 接 节 点 组 成 的 集合 ， 
Cp v) 表示 节点 w 的 出 度 , /表示 阻尼 系数 ， 一 般 取 0.85。 它 
是 用 来 加 速算 法 的 收敛 ， 而 且 可 以 避免 由 于 孤立 节点 的 存在 而 
导致 不 能 收敛 的 情况 。 
2.1.2 标签 遍历 顺序 
确定 了 要 更 新 节点 的 顺序 后 ， 就 可 以 对 所 选 节点 更 新 其 标 
签 集 。 更 新 节点 标签 时 以 所 选 节点 和 邻近 节点 的 综合 相似 度 降 
序 为 标签 遍历 顺序 ， 节 点 的 综合 相似 度 通 过 链接 相关 度 外 和 主 
题 相 似 度 外 计算 得 到 。 
邻近 节点 包括 直接 邻接 节点 和 间接 邻接 节点 。 若 节点 vu 满 
AÉ(Xvu» € EV «uv» € E), WIK v 和 互 为 直接 邻接 节点 。 若 节 
点 vu 满足 (<vu>4E 人 < uv >Ẹ EA((vw»€EAxuw»€E)V 
(«wv»€EA«wu»€E)V(«vw»€E N< wu >EE)V(<uw> 
EE N<wv>EE)), WEK v flu 互 为 间接 邻接 节点 。 

定义 3 链接 相关 度 jz。 社交 网 络 拓扑 由 用 户 节 点 和 用 
户 的 双向 关注 构成 ， 用 户 节点 的 链接 相关 度 表 示 在 网 络 拓扑 中 
节点 之 间 的 链接 紧密 程度 。 用 户 节点 和 u 的 链接 相关 度 link 
定义 如 式 〈4) 所 示 。 


5d. ead, vu 直接 邻接 
vu 间接 邻接 

XIvxy EV， 若 <%y> EE， 则 定义 x F| y 的 路 径 长 度 adj, 
为 1， 否则 为 0。 当 节点 v 和 互 为 间接 邻接 节点 时 ， 若 <vw> 
EE 八 <u,w>EE, 则 表示 v flu 有 共同 指向 关系 , 用 co, 表示 ; 
若 <wv>EE 八 <wu>EE， 则 表示 v 和 w 有 共同 被 指向 关系 ， 用 
ci 表示; 若 <ww>EE 人 <wu>EE)V(<uw>EE N\<wv> 
EE), WRR v 和 w 有 路 径 长 度 为 2 的 链接 关系 ， 用 S, 表示。 
若 <vw>EE 八 <u,w>EEB, 则 v 经 w 到 4 的 路 径 长 度 Spl, = adj, 
* adi, =2。Splw 也 类 似 。 间接 邻 接 节 点 限定 在 路 径 长 度 为 2 的 
节点 。 式 (4) 中 取 a=p=0.5。co,、ci, Fl S, 如 式 G 
C) 所 示 ，0, 表示 节点 v 的 出 度 ，7 表示 节点 v 的 入 度 。 


link, = (4) 


alco, *ci,, )- DS, 


vu vu 


o, - 19.00, A 
[0, U0, UI, Ur, | 

NN 0 T 
[0, U0, UL UI, | 

n O) 
2spl,  2spl, 


定义 4 主题 相似 度 topic。 主 题 相 似 度 用 来 衡量 节点 v 与 
邻近 节点 2 在 主题 上 的 相似 程度 。 将 用 户 的 主题 分 布 表示 为 向 
量 空间 的 简单 映射 后 ， 可 通过 主题 概率 分 布 计 算得 到 两 个 用 户 
的 主题 相似 度 。 可 用 KL (Kullback-Leibler divergence) 距离 的 


AR, F: 基于 节点 综合 相似 忆 


对 称 版 本 JS (Jensen-Shannon) 散 度 来 衡量 主题 相 异 度 , 再 根据 
主题 相 异 度 计算 主题 相似 度 。 节 点 v 和 nu 之 间 的 差异 可 用 主题 
相 蜡 度 公式 distu hR, WAR (8)、(9) 所 示 。 若 V 为 用 
户 节点 集 ，T HERR, MA V 和 T 可 构成 “用 户 一 主题 ”矩阵 
UTM, UTM 反映 了 所 有 用 户 节点 v 的 主题 概率 分 布 VTP 。 式 


中 Dj (v,u) Æ VTP, FI VTP, ŽK JS SIUS. M = (VTP, VIP.) 


JE VTP, Wl VTP, WIE, DCP |O) = ZrO 是 Q 到 了 
的 KL 散 度 。 
1 
Djs CO)= 2 (Dy, TP ||M D, (VTP||M )) (8) 


dist(v,u) = J2x D, (v,u) (9) 


1PU ex v 和 的 主题 相似 度 定 义 如 式 (10〉 所 示 。 


topic, =1— dist(v,u) =1— V2x D, (v,u) (10) 


定义 5 综合 相似 度 sim, o 融合 节 点 v 和 的 主题 相似 度 
和 链接 相似 度 就 得 到 用 户 的 综合 相似 度 ， 如 式 〈11) 所 示 。 参 
数 设置 采用 黄金 分 割 比例 ， 设 4 数 0.618。 
sim, = Atopic, + (1 — A)link,, (11) 
2.1.3 更 新 节点 标签 

对 待 更 新 节点 v 的 邻近 节点 根据 综合 相似 度 排序 后 ， 开 始 
更 新 节点 标签 。 节 点 接受 邻近 节点 的 标签 影响 程度 与 节点 之 间 
的 综合 相似 度 有 关 ， 综 合 相 似 度 高 的 节点 之 间 标 签 影响 作用 更 
明显 ， 在 此 考虑 将 wim， 值 引入 到 节点 标签 的 更 新 ，v 的 某 个 标 
签 c 在 ! 轮 迭代 中 的 隶属 度 可 用 式 〈12) 计算 。 


p sim,, b, 1(c,u) 
b (c,v) _ ueN(v) (12) 
[NO)| 


其 中 : vo) 为 节点 vv 的 邻近 节点 集合 。 
在 更 新 节点 标签 时 ， 如 果 某 些 节 点 携带 无 穷 多 隶属 度 较 小 
的 标签 ， 使 得 该 节点 属于 无 穷 多 的 社区 ， 影 响 了 所 划分 的 社区 
的 质量 ， 所 以 需要 设 定 淘汰 机 制 。 本 文 利用 淘汰 参数 5 
(0.27«0«0.62) 来 限制 节点 所 拥有 的 标签 个 数 ， 根 据 经 验 本 文 
取 其 值 为 0.6。 在 每 次 标签 更 新 完成 后 , 对 隶属 度 做 归 一 化 处 理 ， 
使 得 每 一 个 节点 所 拥有 的 标签 隶属 度 总 和 为 1， 将 标签 集合 
的 元 素 根据 隶属 度 进行 降序 排序 , 从 隶属 度 最 大 的 值 开 始 昧 加 ， 
直至 和 不 小 于 5， 选 取 这 前 几 个 标签 并 重新 做 归 一 化 处 理 ， 使 


得 > bev)=1, 


celabel(v) 


2.2 MLPA-NCS 算法 描述 

输入 : 网 络 G(VE)， 用 户 节点 集 V， 主 题 T， 淘汰 参数 6， 
每 个 节点 的 标签 集 abe/， 标 签 集 初始 为 空 。 

输出 : 重 县 社 区 集合 C. 


1. 初 始 化 节点 标签 ,为 G 中 每 个 节点 ”赋予 唯一 的 标签 c; 
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2.71 7H P5 RR V MERR T 938) 
并 计算 每 个 节点 v 的 主题 概率 分 布 V7P o 


U 

[5] 
Im 
[ul 
18 
S 
ES 


其 相 比 现 有 的 者 


AUSSIE, 


于 多 机 


RAS Pc T8 AI RE E 


区 划分 算法 划分 的 社区 


具有 


3. 据 式 G) 计算 所 有 节点 vv 的 潜在 影响 力 PI(v), 并 由 高 到 
低 排 序 ; 
4. 令 f=1; 


5. 按 潜在 影响 力 PI 降序 更 新 所 有 节点 vv 的 标签 ， 重 复 执行 
(5.1) ~ (5.6) 步 : 
5.1 据 式 (4) 计算 


”与 其 所 有 邻近 节点 u 的 链接 相关 度 


更 高 的 质量 和 准 


确 性 ， 


图 进行 实验 ， 


XJ LPA, 


3.1 


o 


AITZE. B 


实验 数据 
实验 采 


TR EC SEC 


有 算法 和 数 ] 


使 


mæ KarateLL， 该 数据 集 是 目 
的 小 型 复杂 网 络 数 据 集 。 该 数据 集 描述 


本 文采 用 了 真实 数据 集 和 人 工 网 络 
COPRA, SLPA, LPPB 和 MLPA-NCS 算 
居 的 运行 环境 为 Core i5-2450M, 

12GB, Microsoft Windows10， 在 anaconda2 ^F 


台 上 进行 实验 。 


xi 


前 社 
:美国 一 


link, 。 空手 道 俱 乐 部 的 成 员 关 系 ， 网 络 包 含 34 个 节点 和 78 条 边 
52 据 式 (10) 计算 v 与 其 所 有 邻近 节点 2 的 主题 相关 度 i b une 如 表 1 所 示 。 
topic, ° 3&1 Karate 网 络 实际 分 组 
53 据 式 〈11) 计算 v 与 其 所 有 邻近 节点 u 的 综合 相似 度 社区 成 员 编号 
sim, 。 1 123456781112131417182022 
5.4 更 新 v 的 标签 ， 即 记录 v 接受 到 的 所 有 邻近 节点 u 的 2 9 10 15 16 19 21 23 24 25 26 27 28 29 30 31 32 33 34 
标签 c。 在 根据 sim, 对 邻近 节点 进行 降序 排序 的 基础 上 ， 利 用 
隶属 度 将 每 一 个 邻近 节点 u 的 所 有 标签 排序 ， 以 此 作为 计算 v 由 于 Karate 数据 量 较 少 ,社区 划分 结果 可 直接 与 网 络 实际 
接受 到 所 有 标签 的 隶属 度 的 顺序 ， 按 式 (12) 计算 每 一 个 标签 分 组 进行 比较 ， 从 i es 对 于 大 型 网 络 ， 则 采 
c 的 隶属 度 b(c,v) o ] LER 网 络 生 成 程序 仿真 生成 较 大 规模 的 人 工 网 络 图 , 本 文采 


5.5 对 v 的 所 有 标签 的 隶 


得 2, bevs, 


celabel(v) 


5.6 根据 淘汰 参数 6 对 
一 化 处 理 ; 


滤 之 后 进行 二 次 归 


v 的 初步 归 一 化 结果 进行 过 


BE b 进行 初步 归 一 化 处 理 ， 使 


滤 ， 过 


上 
上 
f 


] LFR-10000 人 工 网 络 对 LPA, COPRA, SLPA, LPPB, MLPA- 
NCS 五 种 算法 进行 对 比 。LFR benchmark 基准 程序 1 
Lancichinetti 等 人 [9 提出 , 根据 参数 设置 生成 所 需求 的 网 络 , 本 
实验 网 络 参 数 如 表 2 所 示 ， 其 中 ，N 为 节点 数目 ，k 为 节点 平 
均 度 数 ，maxk 为 节点 最 大 度数 ，minc 为 社区 最 小 规模 ，maxc 


改变 , 标签 传 


6. 如 果 G 中 所 有 节点 v 的 标签 集 label(v) 4^ Fi 


为 社 


区 最 大 规模 ，mu (mixing parameter) 为 节点 与 社 


区 外 部 连 


播 过 程 停止 ， 转 到 第 7 步 ， 否 则 ， 令 -1+1 并 转 到 第 5 步 ; 接 的 边 数 与 该 节点 度数 的 比值 ， 该 比值 越 小 ， 说 明 节点 可 连接 

7. 根 据 所 有 节点 最 终 的 标签 集 确定 其 所 属 社区 ， 得 到 社区 ”的 社区 越 少 ， 网 络 的 社区 结构 越 明 显 ，mu 取 0.1 一 0.6 ， 每 次 
&& c- (c.c, M c) 增加 0.05, Æ 11 个 LFR-10000 网 络 。 

32 LFR-10000 人 工 网 络 参 数 设置 

23 ”算法 复杂 度 分 析 参数 LFR-10000 

假定 网 络 有 n 个 节点 和 m 条 边 ，m/n 表示 节点 的 平均 邻居 10000 
数 。 k 10 

a) 初始 化 节点 标签 需要 时 间 复 杂 度 On): maxk 300 

bo 计算 所 有 节点 的 主题 概率 分 布 需要 时 间 复 杂 度 On) s minë 30 

c) 根据 PageRank 计算 节点 的 潜在 影响 力 需 要 时 间 复 杂 度 maxc 100 
O(nlogn); mu 0.1-0.6 

d) 计算 节点 与 邻近 节点 的 综合 相似 度 需要 时 间 复 杂 度 
O(m); 3.2 ”实验 评价 标准 

e) 与 COPRA 算法 类 似 , 每 个 节点 接受 其 每 个 邻居 节点 标 实验 采用 标准 化 互信 息 NMII3] 度 量 社区 划分 算法 生成 的 
签 的 时 间 复 杂 度 同 为 O(log(m/n))， 这 一 阶段 总 的 时 间 复 杂 度 为 社区 结构 与 标准 社区 结构 之 间 的 相关 性 ， 以 此 评估 算法 的 准确 
O(mlog(m/n)) . HE, WR C135 所 示 。 采 用 重 肘 模块 度 Qov UU TP (p CE E DC 

根据 以 上 分 析 ， 忽 略 掉 较 小 的 时 间 复 杂 度 ，MLPA-NCS $t ”的 网 络 结构 ， 以 此 度量 社区 划分 的 质量 ， 如 式 〈14) ~ (16) 所 
法 总 的 算法 复杂 度 为 O(mlog(m/m))， 比 COPRA 算法 的 时 间 复 


杂 度 O(vmlog(vm/n)) WE [I s 


3 ”实验 


示 。 NMIGTY)--H (HI) 


norm 


XHOpO,,2103) 


norm 


Arp XA Y 2) SUR KARI BRE D E ADU b EE E EE [XC 4184 


为 了 考察 本 文 提 出 的 MLPA-NCS 算法 的 可 行 性 , 并 且 验 证 


NM 
又 的 准 


一 


确 性 越 高 。 


值 越 大 说 明 划 分 结果 与 标准 


网 络 结构 越 相似 ， 算 法 划分 社 
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out y in 


1 kei 
ov = 一 /4 一 oO 一 一 
Q 5.24 24V 970 ——3] 


Feb. AWARE, KOSTSASIURE, m 为 边 的 个 数 ， 表示 
节点 和 j 同属 于 社区 c KER r, = sp, p, 表示 i 属 


(14) 


于 社区 c 的 概率 ， op 表示 节点 i 或 者 节点 j 在 社区 c 中 的 概 
率 。 
Li 等 15 
(Pic Pje) dte mdre 02) (15) 
Iis Pje) p; s Pje) 
NM e een 09 
Iv] |V| 


值 范围 在 0 到 1 之 间 ， 值 越 大 ， 
3.3 ”实验 结果 与 分 析 
实验 中 对 Karate 数据 集 用 MLPA-NCS 进行 社区 划分 后 的 
结果 如 图 1 所 示 ， 可 以 看 出 共 分 为 两 个 社区 ， 与 表 1 中 实际 分 
组 相 比 , 除 节点 3 和 31 AWAK CR T a Pb, 其 他 节点 都 
分 配 到 各 自 所 属 的 社区 且 均 划分 正确 ,取得 了 较 好 的 实验 效果 。 


图 1 


MLPA-NCS 对 Karate 网 络 的 划分 结果 


实验 选用 LPA, COPRA, SLPA, LPPB, MLPA-NCS 五 种 
算法 作为 对 比 , 为 避免 算法 的 随机 性 对 实验 造成 影响 , 对 LPA、 
COPRA、SLPA、LPPB 四 个 算法 都 进行 20 次 实验 取 结 果 平 均 
值 , 而 本 文 提出 的 MLPA-NCS 由 于 算法 的 稳定 性 只 需 进行 一 次 


Ch 


AIFA, F: 基于 节点 综合 相似 度 


社区 结构 明显 还 是 模糊 的 网 络 中 ， 


inaXivE HAFI 


的 多 标签 传播 社区 划分 算法 


0.1 0.15 02 025 0.3 0.35 0.4 


mixing parameter 


和 法 在 LFR-10000 上 NMI 的 比较 


—&k—LPA 
一 * 一 COPRA 
一 一 SLPA 
—X—LPPB 
—8I— MLPA-NCS 


0.1 0.15 0.2 0.25 0.3 0.35 0.4 


mixing parameter 


总 体 而 言 , MLPA-NCS 算法 相 比 现 


分 算法 在 一 定 程度 上 提高 了 社区 划分 的 
4 ”结束 语 


图 3 算法 在 LFR-10000 上 Qov 的 比较 


的 多 标签 传播 社区 划 
稳定 性 和 生成 社区 的 质 


针对 COPRA 算法 在 选择 节点 和 节 
机 顺序 策略 导致 传播 过 程 不 确定 、 社 区 


yz: 


MLPA-NCS 算法 , 通过 计算 节点 潜在 影 
新 节点 的 顺序 ， 通 过 计算 由 节点 主题 相 
的 综合 相似 度 并 排序 作为 节点 标签 更 新 


实验 。 采 用 LER 网 络 生 成 程序 仿真 生成 不 同 规模 的 人 工 网 络 图 ， 


x 的 质量 ,保证 了 社区 划分 结果 的 稳定 


求 取 各 算法 NMI 与 Qov。 图 2 和 3 是 在 LFR-10000 的 人 工 网 
络 中 ， 五 种 算法 划分 的 社区 结构 随 着 mixing parameter 的 改变 
FER NMI 与 Qov 的 变化 情况 。 
从 图 2 可 知 ， 在 mixing parameter 值 较 小 的 时 候 ， 网 络 的 
社区 结构 较为 明显 ， 社 区 之 间 的 边界 较为 清晰 ， 此 时 LPPB 与 
MLPA-NCS 算法 相 比 其 他 三 个 算法 的 NMI 值 较 高 ， 但 是 随 着 


点 标签 更 新 时 因 采 用 随 
划分 结果 不 稳定 且 生 成 


社区 质量 不 够 高 等 问题 ， 本 文 以 COPRA 算法 框架 为 基础 对 其 
改进 ， 提 出 基于 节点 综合 相似 度 的 多 标签 传播 社区 划分 算法 


响 力 并 排序 作为 选择 更 
似 度 和 链接 相关 度 构成 
的 顺序 ， 提 高 了 生成 社 
。 实 验 表 明 MLPA-NCS 


算法 在 Karate 数据 集 上 的 社区 划分 结果 
果 , 同时 在 LFR-10000 上 的 实验 表明 当 
NCS 算法 相 比 于 LPA、COPRA、SLPA、 


正确 且 有 较 好 的 实验 效 
mu 值 比较 大 时 ,MLPA- 
LPPB 四 个 算法 的 NMI 


值 较 高 ,说 明 MLPA-NCS 算法 准确 性 更 高 ; 相 比 于 LPA、COPRA、 


SLPA、LPPB 四 个 算法 划分 的 社区 结构 


有 更 高 的 模块 度 Qov, 


说 明 社 


又 质量 相对 更 高 且 


[社区 划分 结果 稳定 。 


mixing parameter 值 的 


LPPB 算法 ， 由 此 可 以 


他 三 个 算法 更 有 优势 ， 


站 断 大 规模 网 络 中 MLPA-NCS 算法 准确 
性 更 高 。 从 图 3 可 知 , 无 论 mixing parameter 值 是 大 或 小 , 均 可 
以 看 出 LPPB 与 MLPA-NCS 算法 划分 的 社区 模块 度 Qov 比 其 


机 策略 的 改进 减少 了 运 


BK, MLPA-NCS 算法 的 NMI 值 超过 


原因 是 这 两 个 算法 对 标签 传播 算法 的 随 
行 结果 的 差异 ， 在 一 定 程度 上 发 挥 出 潜 


在 影响 力 更 高 的 节点 的 作用 


, 实验 结果 表明 MLPA-NCS 算法 无 
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